JSAI2026 双曲空間上でのword2vec
テーマ
word2vecの埋め込み先をユークリッド空間ではなく双曲空間にする研究
単語の意味的な階層構造を、埋め込み空間の幾何構造として表せるかを検証する
背景課題
通常のword2vecは単語の類似性を表しやすい
一方で、上位語・下位語のような階層関係は表しにくい
双曲空間は木構造や階層構造を低次元で表しやすい性質を持つ
提案
ポアンカレ球モデル上で Skip-gram型word2vecを実装
共起する単語を近く、共起しにくい単語を遠くに配置
双曲空間版とユークリッド空間版を比較
実験
Brown Corpusを使用
fruit / apple / banana などの語で、上位語と下位語の関係を観察
一部単語の出現頻度を調整し、頻度の影響も見る
結論
双曲空間は階層構造を表す器として有望
しかし、テキスト共起だけから階層性を安定して抽出するのは難しい
「抽象度」と「頻度」が相関する場合には、それらしく見える
頻度に依存せず意味階層を捉える方法が今後の課題
気になる daiiz.icon
モチベーション
構造化されていない。プレーンテキストから構造抽出することができる空間を定義できるのではないかというモチベーションで始めたが、今回の用途では向いていなかったという報告
元々ポアンカレ球は木構像のデータに対してはものすごく効果を発揮するが、今回の用途ではダメだった
最近ポアンカレ球関連のアイデアを読み漁っていたので興味がある
うまい扱い方のヒントがあるかもしれないので聞いておきたい
双曲空間と意味階層の本質的な関係
word2vecの目的関数だけで階層性を学習できるのか
#聴講メモ